注意缺陷/多动症(ADHD)是一种神经发育障碍,高度流行,需要临床专家才能诊断。众所周知,个人的观察行为反映在眼睛运动中,直接与注意机制和高阶认知过程有关。因此,我们探讨了是否可以根据记录的眼动动作以及在免费观看任务中的视频刺激信息进行检测到多动症。为此,我们开发了一个基于端到端的深度学习序列模型%,该模型%使用眼动扫描路径,我们将其预先培训在相关任务上,该任务可获得更多数据。我们发现该方法实际上能够检测ADHD并胜过相关的基线。我们在消融研究中研究了输入特征的相关性。有趣的是,我们发现该模型的性能与视频内容密切相关,该视频为未来的实验设计提供了见解。
translated by 谷歌翻译
We present RAVEn, a self-supervised multi-modal approach to jointly learn visual and auditory speech representations. Our pre-training objective involves encoding masked inputs, and then predicting contextualised targets generated by slowly-evolving momentum encoders. Driven by the inherent differences between video and audio, our design is asymmetric w.r.t. the two modalities' pretext tasks: Whereas the auditory stream predicts both the visual and auditory targets, the visual one predicts only the auditory targets. We observe strong results in low- and high-resource labelled data settings when fine-tuning the visual and auditory encoders resulting from a single pre-training stage, in which the encoders are jointly trained. Notably, RAVEn surpasses all self-supervised methods on visual speech recognition (VSR) on LRS3, and combining RAVEn with self-training using only 30 hours of labelled data even outperforms a recent semi-supervised method trained on 90,000 hours of non-public data. At the same time, we achieve state-of-the-art results in the LRS3 low-resource setting for auditory speech recognition (as well as for VSR). Our findings point to the viability of learning powerful speech representations entirely from raw video and audio, i.e., without relying on handcrafted features. Code and models will be made public.
translated by 谷歌翻译
Due to its importance in facial behaviour analysis, facial action unit (AU) detection has attracted increasing attention from the research community. Leveraging the online knowledge distillation framework, we propose the ``FANTrans" method for AU detection. Our model consists of a hybrid network of convolution and transformer blocks to learn per-AU features and to model AU co-occurrences. The model uses a pre-trained face alignment network as the feature extractor. After further transformation by a small learnable add-on convolutional subnet, the per-AU features are fed into transformer blocks to enhance their representation. As multiple AUs often appear together, we propose a learnable attention drop mechanism in the transformer block to learn the correlation between the features for different AUs. We also design a classifier that predicts AU presence by considering all AUs' features, to explicitly capture label dependencies. Finally, we make the attempt of adapting online knowledge distillation in the training stage for this task, further improving the model's performance. Experiments on the BP4D and DISFA datasets demonstrating the effectiveness of proposed method.
translated by 谷歌翻译
Recognizing a word shortly after it is spoken is an important requirement for automatic speech recognition (ASR) systems in real-world scenarios. As a result, a large body of work on streaming audio-only ASR models has been presented in the literature. However, streaming audio-visual automatic speech recognition (AV-ASR) has received little attention in earlier works. In this work, we propose a streaming AV-ASR system based on a hybrid connectionist temporal classification (CTC)/attention neural network architecture. The audio and the visual encoder neural networks are both based on the conformer architecture, which is made streamable using chunk-wise self-attention (CSA) and causal convolution. Streaming recognition with a decoder neural network is realized by using the triggered attention technique, which performs time-synchronous decoding with joint CTC/attention scoring. For frame-level ASR criteria, such as CTC, a synchronized response from the audio and visual encoders is critical for a joint AV decision making process. In this work, we propose a novel alignment regularization technique that promotes synchronization of the audio and visual encoder, which in turn results in better word error rates (WERs) at all SNR levels for streaming and offline AV-ASR models. The proposed AV-ASR model achieves WERs of 2.0% and 2.6% on the Lip Reading Sentences 3 (LRS3) dataset in an offline and online setup, respectively, which both present state-of-the-art results when no external training data are used.
translated by 谷歌翻译
我们介绍了Sparrow,这是一个寻求信息的对话代理,与提示的语言模型基线相比,训练有素,更有帮助,正确和无害。我们使用从人类反馈中的强化学习来培训我们的模型,以帮助人类评估者判断代理人的行为。首先,为了使我们的代理人更有帮助和无害,我们将良好对话的要求分解为代理人应遵循的自然语言规则,并分别向评估者询问每个规则。我们证明,这种崩溃使我们能够收集对代理行为的更多针对性的人类判断,并允许更有效的规则条件奖励模型。其次,我们的代理商在收集对模型声明的偏好判决时提供了支持事实主张的来源的证据。对于事实问题,麻雀提供的证据支持了78%的时间。比基线比基线更享受麻雀,同时对人类的对抗性探测更具弹性,在探测时只有8%的时间违反了我们的规则。最后,我们进行了广泛的分析,表明尽管我们的模型学会遵守我们的规则,但它可以表现出分布偏见。
translated by 谷歌翻译
代理商必须连续监视其伴侣的情感状态,以了解和参与社交互动。但是,评估情感识别的方法不能说明在情感状态之间的阻塞或过渡期间可能发生的分类绩效的变化。本文解决了在婴儿机器人相互作用的背景下影响分类表现的时间模式,在这种情况下,婴儿的情感状态有助于他们参与治疗性腿部运动活动的能力。为了支持视频记录中面部遮挡的鲁棒性,我们训练了婴儿使用面部和身体功能的识别分类器。接下来,我们对表现最佳模型进行了深入的分析,以评估随着模型遇到丢失的数据和不断变化的婴儿影响,性能如何随时间变化。在高度信心提取功能的时间窗口期间,经过训练的面部功能的单峰模型与在面部和身体特征训练的多模式模型相同的最佳性能。但是,在整个数据集上评估时,多模型模型的表现优于单峰模型。此外,在预测情感状态过渡并在对同一情感状态进行多个预测后改善时,模型性能是最弱的。这些发现强调了将身体特征纳入婴儿的连续影响识别的好处。我们的工作强调了随着时间的流逝和在存在丢失的数据的存在时,评估模型性能变异性的重要性。
translated by 谷歌翻译
最近,在一系列独立作品中提出了几种培训策略和时间模型,用于隔离单词唇读。但是,尚未探索结合最佳策略和调查每个策略的影响的潜力。在本文中,我们系统地研究了最先进的数据增强方法,时间模型和其他培训策略的性能,例如自我验证和使用单词边界指标。我们的结果表明,时间掩盖(TM)是最重要的增强,其次是混合和密集连接的时间卷积网络(DC-TCN)是隔离单词唇读的最佳时间模型。使用自我验证和单词边界指标也是有益的,但程度较小。上述所有方法的组合导致分类精度为93.4%,这比LRW数据集的当前最新性能的绝对提高了4.6%。通过预先培训其他数据集,可以将性能进一步提高到94.1%。对各种培训策略的错误分析表明,绩效通过提高难以认可词的分类准确性来提高。
translated by 谷歌翻译
在我们的多元文化世界中,支持人类的情感意识AI系统需要能够感知各种文化情绪表达模式变化的影响的能力。这些模型必须在未经培训的文化背景下表现良好。情感计算中的一个标准假设是,在同一文化中受过训练和使用的识别模型(文化内部)的表现将比在一种文化中训练并用于不同文化(跨文化)的模型更好。我们测试了这一假设,并使用来自六种文化的现实世界二元相互作用的视频进行了对跨文化影响识别模型的首次系统研究。我们在时间因果发现下开发了一种基于注意力的特征选择方法,以识别可以在跨文化情感识别模型中利用的行为线索。在所有六种文化中,我们的发现表明,跨文化影响识别模型比内文化模型更有效或更有效。我们确定并为跨文化情感识别而做出有用的行为特征;在本研究的背景下,视觉方式的面部特征比音频方式更有用。我们的论文介绍了跨文化影响识别系统未来发展的概念和动机。
translated by 谷歌翻译
视频到语音的合成(也称为Lip-speech)是指沉默的唇部动作转换为相应的音频。由于其自我监督的性质(即可以在无需手动标记的情况下训练)以及在线可用的视听数据的收集量不断增长,因此该任务受到了越来越多的关注。尽管有这些强烈的动机,现代视频到语音的作品主要集中在词汇和环境中具有很大限制的中小型语料库。在这项工作中,我们引入了一个可扩展的视频到语音框架,该框架由两个组件组成:视频到光谱图预测器和一个预训练的神经声码器,该框架将MEL频谱图转换为波形音频。我们在LRW上取得了最先进的效果,并且在LRW上的表现要优于以前的方法。更重要的是,通过使用简单的FeedForward模型专注于频谱图预测,我们可以有效地将方法扩展到非常不受约束的数据集:据我们所知,我们是第一个在具有挑战性的LRS3数据集上显示出可理解的结果。
translated by 谷歌翻译
以对象为中心的表示是人类感知的基础,并使我们能够对世界进行推理,并系统地推广到新的环境。当前,大多数在无监督的对象发现上的作品集中在基于插槽的方法上,这些方法明确将单个对象的潜在表示分开。尽管结果很容易解释,但通常需要设计相关建筑的设计。与此相反,我们提出了一种相对简单的方法 - 复杂的自动编码器(CAE) - 创建分布式以对象为中心的表示。遵循对生物神经元中对象表示为基础的编码方案,其复杂值激活表示两个消息:它们的幅度表达了特征的存在,而神经元之间的相对相位差异应绑定在一起以创建关节对象表示。 。与以前使用复杂值激活进行对象发现的方法相反,我们提出了一种完全无监督的方法,该方法是端到端训练的 - 导致了性能和效率的显着提高。此外,我们表明,与最新的基于最新的插槽方法相比,CAE在简单的多对象数据集上实现了竞争性或更好的无监督对象发现性能,同时训练的速度要快100倍。
translated by 谷歌翻译